迈向更强的开集目标检测-From Detection to Grounding
【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
开集目标检测主要有两种方案,分别是 referring(CLIP-based)和 Grounding。近期,IDEA 研究院联合清华大学发布了一项工作,他们将基于 Transformer 的目标检测模型 DINO 和 Grounding 预训练结合了起来,同时使用多种数据:detection,grounding,和图像-文本对训练模型,使其拥有极强的开放集合检测能力。此外,他们还将 Grounding DINO 和多种不同的视觉基础模型组合了起来,使其拥有更强的能力。
本期开放麦,我们邀请到该工作的一作清华大学计算机系博士生刘世隆,分享他们在该方向的探索。
分享内容
实现开集目标检测的两种思路
Referring(CLIP-based)和 Grounding
Grounding DINO 介绍
如何结合 Grounding 预训练和目标检测模型 DINO 构建更强的开放世界检测模型
Grounded-SAM
Grounding DINO 与其他视觉基础模型组合应用
分享时间
北京时间
2023 年 9 月14 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
刘世隆
清华大学计算机系博士生,导师为朱军教授,也长期在粤港澳大湾区数字经济研究院(IDEA-Research)接受张磊教授的指导。研究方向包括计算机视觉和机器学习,目标检测、多模态学习、开放世界感知等。
内容详情
目标检测是计算机视觉的基础任务。传统目标检测(闭集目标检测)将范围限定在特定的类别中,而我们希望能够根据文本检测任意物体,即完成开集目标检测。
图 1:从 Closed-set detection 到 Open-set detection
开集目标检测主要有两种方案,分别是 referring(CLIP-based)和 Grounding。已有的大部分的相关工作是 Referring 形式完成的。
图 2:已有的开集检测相关工作的总结
Referring 更加符合人的直觉,采用表示学习的思路对 region 的特征进行分类。如传统的两阶段分类器首先提取 region,然后判断 region 中物体的类别。将后面一步的分类层换成 region —文本对比层即可实现开集目标检测。
图 3:如何从 Closed-Set Detection
走向 Referring Open-Set Object Detection
而 Grounding 则是不同的思路,其将 Detection 问题转化成 Grounding 问题。如下图所示,将类别名拼成一句话作为 prompt,然后将图像和 prompt一同输入模型然后获得相对应的类别和 box。
图 4:将检测问题建模成 Grounding 问题
相比于 Referring,Grounding 可以更方便地兼容图像-文本对,因此更便于使用大规模数据增强模型的能力。
基于此,我们将基于 Transformer 的目标检测模型 DINO 和 Grounding 预训练结合了起来,同时使用多种数据:detection,grounding,和图像-文本对训练模型,使其拥有极强的开放集合检测能力。
图 5:Grounding DINO 结构图
我们还在将 Grounding DINO 和多种不同的视觉基础模型组合了起来,使其拥有更强的能力。比如我们将 Grounding DINO 和 SAM 结合组成了 Grounded-SAM,使其可以根据文本检测和分割一切目标。参考 Grounded-SAM 的 repo(https://github.com/IDEA-Research/Grounded-Segment-Anything)来发现更多有趣的模型组合和示例。
图 6:Grounded-SAM 效果
相关工作
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
paper:
Grounding DINO:
https://readpaper.com/paper/4731752776334327809?channel=OpenMMlab
Semantic-SAM:
https://readpaper.com/paper/1866234282986521088?channel=OpenMMLab
code:
https://github.com/IDEA-Research/GroundingDINO
https://github.com/IDEA-Research/Grounded-Segment-Anything
交流群
同时为了方便大家交流沟通,我们还建立了相关的技术交流群,提供与大佬 1v1 的机会,扫码即可入群~
往期回顾
多模态学习旨在构建能够处理和关联来自多种模态信息的模型。尽管该领域已经发展多年,但由于各种模态(例如自然语言、2D 图像、3D 点云、音频、视频、时间序列、表格数据)之间固有的差距,设计一个统一的网络来处理这些模式仍然具有挑战性。为了解决这一挑战,港中文 MMLab 联合上海 AI Lab 提出了一个统一多模态学习框架—— Meta Transformer,采用全新的设计思路,通过统一学习无配对数据,可以理解 12 种模态信息。
上期开放麦,我们邀请到香港中文大学 MMLab 博士生张懿元,他详细介绍了这一领域的一系列新工作。超多干货,欢迎通过视频回放温习一下哦~
2023-09-08
2023-09-07
2023-09-06